首页> 外文OA文献 >Reconstituting typeset Marriage Registers using simple software tools
【2h】

Reconstituting typeset Marriage Registers using simple software tools

机译:使用简单的软件工具重建排版的婚姻登记簿

代理获取
本网站仅为用户提供外文OA文献查询和代理获取服务,本网站没有原文。下单后我们将采用程序或人工为您竭诚获取高质量的原文,但由于OA文献来源多样且变更频繁,仍可能出现获取不到、文献不完整或与标题不符等情况,如果获取不到我们将提供退款服务。请知悉。

摘要

In a world of fully integrated software applications, which can seem daunting to develop and to maintain, it is sometimes useful to recall that a system of loosely-linked software components can provide surprisingly powerful and flexible methods for software development.\ud\udThis paper describes a project which aims to retypeset a series of volumes from the Phillimore Marriage Registers, first published in England around the turn of the last century. The source material is plain text derived from running Optical Character Recognition (OCR) on a set of page scans taken from the original printed volumes. The regular, tabular, structure of the Register pages allows us to automate the re-typesetting process.\ud\udThe UNIX troff software and its tbl preprocessor are used for the typesetting itself, but a series of simple awk-based software tools, all of them parsers and code generators of one sort or another, is used to bring about the OCR-to-troff transformation.\ud\udBy re-parsing the generated troff codes it is possible to\udproduce a surname index as a supplement to the retypeset\udvolume. Moreover, this second-stage parsing has been invaluable in discovering subtle ‘typos’ in the automatically generated material. With small adjustments to this parser it would be possible to output the complete marriage entries in standard XML or GEDCOM notations.
机译:在一个看起来似乎难以开发和维护的完全集成的软件应用程序的世界里,回顾一下松散链接的软件组件系统可以提供出乎意料的强大而灵活的软件开发方法有时是很有用的。\ ud \ ud本文描述了一个旨在重新排版《费城摩尔婚姻登记册》(Phillimore Marriage Register)的系列的项目,该册子于上世纪初在英国首次出版。原始材料是纯文本,该纯文本来自对原始打印量进行的一组页面扫描上运行的光学字符识别(OCR)。注册页面的常规表格结构使我们能够自动执行重新排版过程。\ ud \ udUNIX troff软件及其tbl预处理器用于排版本身,但是一系列简单的基于awk的软件工具,全部其中的一种或多种解析器和代码生成器可用于实现OCR到troff的转换。\ ud \ ud通过重新解析生成的troff码,可以\ ud生产姓氏索引作为对的补充。重新排版\ udvolume。此外,第二阶段的解析对于在自动生成的素材中发现细微的“错别字”具有不可估量的价值。对该解析器进行很小的调整,就可以用标准XML或GEDCOM表示法输出完整的结婚条目。

著录项

  • 作者

    Brailsford, David F.;

  • 作者单位
  • 年度 2012
  • 总页数
  • 原文格式 PDF
  • 正文语种 en
  • 中图分类

相似文献

  • 外文文献
  • 中文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号